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摘 要 混合 模型 方法 (Mixture Model Method) 是 近年 来 提出 的 ， 对 心理 与 教育 测验 中 的 异常 作答 进行 处 理 的 
方法 。 与 反应 时 阅 值 法 ,反应 时 残 差 法 等 传统 方法 相 比 ， 混 合 模型 方法 可 以 同时 完成 异常 作答 的 识别 和 模型 参 

数 人 估计， 并且， 在 数据 污染 严重 的 情况 下 仍 具 有 较 好 的 表现 。 该 方法 的 原理 为 根据 正常 作答 和 异常 作答 的 特点 ， 

针对 分 类 潜 变 量 的 不 同类 别 ,在 作答 反应 和 反应 时 部 分 建立 不 同 的 模型 ， 从 而 实现 对 分 类 潜 变 量 ( 即 作答 层面 
的 分 类 )， 以 及 模型 中 其 他 题目 和 被 试 参 数 的 估计 。 文 章 详细 介绍 了 目前 提出 的 几 种 混合 模型 方法 ， 并 将 其 与 

传统 方法 比较 分 析 。 未 来 研究 可 在 模型 前 提 假 设 违背 , 含有 多 种 异常 作答 等 情况 下 探索 混合 模型 方法 的 稳健 
性 和 适用 性 ,通过 固定 部 分 题目 参数 ， 增 加 选择 流程 等 方式 提高 混合 模型 方法 的 使 用 效率 。 
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1 引言 异常 作答 在 心理 和 教育 测验 中 非常 常见 。 例 如 ， 


日 ABI Jli Mi Multiph 
在 使 用 心理 与 教育 测验 对 学 生 的 人 格 、 技 能 在 明尼苏达 多 项 人 格 测验 (Minnesota Multiphasic 


fe en dee ae 、 本 Personality Inventory, MMPI; Baer et al., 1997; Berry 
和 能 力 等 潜在 特质 进行 测量 时 ， 最 主要 的 目的 是 ae eee 
ae aia oe et al., 1992) 的 一 些 测试 中 ， 有 超过 50% 的 被 试 快速 

基于 测验 信息 得 到 学 生 潜在 特质 的 有 效 估计 值 。 


AMIEA a Ae 1 道 以 上 。 s 国 国家 
Met Ns eee aa oo 
地 因为 异常 作答 的 出 现 带 来 一 些 与 测验 结构 无 关 。 “ ore p 


doc/1s193.htm) 统 计 ， 接近 一 半 (45%) 的 12 年 级 学 
的 污染 。 异 党 作答 根据 其 原因 可 以 分 为 不 努力 作答 oa erect ii 
(non-effortful responses) 、 对 题目 有 预 了 解 的 作答 


(oreknòled a aa R TOA of Educational a MAETI 测 验 表现 不 
等 。 不 同 原因 的 因 的 异 异常 作答 可 能 可 和 全 AK 的 表现 例 Ree ani ints CAT-GRE (基于 

2 计算 机 的 美国 研究 生 入 学 考试 ) 的 最 后 6 道 题目 上 
如 ， 不 努力 作答 可 能 表现 为 忽略 题 、 加 速 作答 


(speeded Hong & Ch 2019b; Shao et al 存在 加 速 作答 行为 。 
speededness, Hon eng, ; Shao et al., i j oe = 
eee tis on greenies : 总 的 来 说 ,异常 作答 具有 提供 的 心理 测量 学 
n si y A (rapid- om a 
Ce P 六 息 少 的 特征 (Wise, 2015, 2017)。 因 此 ， 如 果 在 测 
guessing, Wise, 2015, 2017) 等 。 


vane b 现 了 异常 作答 行为 , 那么 传统 测量 模型 就 不 
能 恰当 处 理 ， 造 成 有 偏差 的 估计 结果 。 首先 , 很 多 
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(Borghans & Schils, 2012)。 其 次 ， 题 目 参 数 估计 值 
的 偏差 会 增 大 (Schnipke & Scrams, 2002; Wise & 
DeMars，2006)。 第 三 ， 如 果 不 同 子 群体 中 异常 作 
答 的 比例 不 同 ， 这 种 差异 还 可 能 导致 项 目 功能 差 
异 , 或 者 对 不 同 子 群体 测验 表现 的 比较 存在 偏差 
(Setzer et al., 2013; Wise & DeMars, 2010)。 第 四 ， 
测验 的 信息 量 、 信 度 会 ! i EA 22 (Wise & DeMars, 
2006)。 例 如 ， 原 有 的 分 析 方法 将 无 效 的 异常 作答 
视 为 有 效 ， 可 能 会 高 估 信 和 度 。 第 五 ,测验 所 测量 的 
结构 也 可 能 会 发 生变 化 ,会 聚 效 度 出 现 偏差 
(Weirich et al., 2017; Wise & DeMars, 2006)。 最 后 ， 
与 测验 有 关 的 预测 变量 和 结果 变量 之 间 的 关系 ， 
假设 检验 得 到 的 结论 等 ， 都 可 能 会 出 现 偏差 
(Clark et al., 2003)。 综 上 ,异常 作答 不 仪 会 造成 被 
试 潜在 特质 估计 值 的 偏差 . 也 会 降低 测验 质量 相 
关 指 标的 准确 性 ， 对 标定 测验 题目 参数 、 开 发 测 
验 等 造成 严重 影响 。 因 此 在 测验 的 数据 分 析 中 ， 
有 必要 通过 科学 的 方法 ,处 理 异 党 作答 , 减 小 其 
不 利 影响 ,得 到 更 准确 的 参数 估计 结果 。 

异常 作答 的 处 理 主要 分 为 识别 并 降低 权重 
在 模型 中 处 理 两 种 思路 (Morgenthaler, 2007)。 异 常 
作答 传统 的 处 理 方式 主要 是 识别 并 降低 权重 ， 它 
是 指 在 数据 清理 时 首先 识别 异常 作答 ， 再 在 数据 
分 析 时 降低 异常 作答 在 样本 中 的 权重 (Ranger et al., 
2019; Rios et al., 2017)。 一 种 降低 权重 的 处 理 方 式 
是 采用 稳健 的 估计 方法 (Hong & Cheng, 2019a)。 
而 降低 权重 中 最 极端 的 方式 是 替换 为 缺失 。 在 异 
常 作答 比例 不 太 大 的 情况 下 ,这 种 方式 得 到 的 参 
数 估计 结果 是 可 以 接受 的 (e.g., Custer et al., 2012; 
Kohler et al., 2017; Rose, 2013)。 然 而 ,这 类 方法 
主要 存在 两 个 问题 。 一 是 在 识别 阶段 , 关于 如 何 
确定 有 效 、 可 信 的 阔 值 ,往往 存在 较 大 争议 。 二 
是 在 降低 权重 阶段 ， 当 异常 作答 与 所 测量 的 潜在 


关 ( 即 类 似 于 非 随 机 缺失 ), 无 法 简单 采用 降低 权 
重 的 方式 处 理 , 很 多 研究 证 明基 于 模型 的 方法 也 
能 够 较 好 地 处 理 这 种 数据 (Pohl et al., 2012; Rose 
et al., 2017)。 

混合 模型 在 识别 异常 作答 上 的 应 用 最 早 可 以 
追溯 到 Schnipke 和 Scrams (1997) 使 用 对 数 正 态 混 
合 模型 拟 合 反应 时 数据 ， 以 区 分 努力 作答 和 不 努 
力作 答 的 被 试 。 他 们 假设 , 如果 每 名 被 试 在 每 道 
题目 上 的 作答 行为 都 可 以 被 分 为 认真 作答 (solution 
behavior) KA SAVES, 并且, 这 两 种 作答 行为 
有 不 同 的 反应 时 分 布 。 那 么 ,每 道 题目 上 的 反应 
时 分 布 就 是 两 种 行为 反应 时 的 混合 分 布 。 即 ， 可 
以 使 用 二 元 正 态 分 布 的 混合 模型 拟 合 反应 时 。 后 
来 , Bolt 等 人 (2002) 又 提出 使 用 混合 Rasch 模型 从 
作答 反应 方面 区 分 含 加 速 行为 和 不 含 加 速 行为 的 
被 试 。 该 模型 假设 在 测验 最 末 的 题目 上 , 含 加 速 
行为 的 潜 类 别 估 计 得 到 的 难度 参数 高 于 不 含 加 速 
行为 的 潜 类 别 估计 结果 。 因 此 ， 可 以 使 用 贝 叶 斯 
估计 的 方法 定义 待 佑 参数 的 先 验 分 布 进行 估计 。 
最 初 的 混合 模型 方法 有 两 个 方面 的 缺陷 。 一 是 仅 
针对 反应 时 或 者 作答 反应 建立 混合 模型 ， 没 有 同 
时 利用 两 方面 信息 。 根 据 不 努力 作答 具有 反应 时 
短 、 正 确 率 低 的 特点 , 或 者 对 题目 有 预 了 解 的 作 
答 具 有 反应 时 短 、 正 确 率 高 的 特点 ， 如 果 能 够 同 
时 基于 反应 时 和 作答 反应 的 信息 建立 混合 模型 
势必 能 够 更 精准 地 侦查 这 些 类 型 的 异常 作答 ， 提 
高 模型 参数 估计 的 准确 性 。 二 是 混合 模型 中 的 类 
别 潜 变 量 是 针对 被 试 的 ， 只 能 完成 被 试 层面 的 识 
别 。 但 是 在 整个 测验 中 , 被 试 正常 作答 和 异常 作 
答 的 状态 可 以 来 回转 换 (Wang & Xu, 2015; Wise, 
2015, 2017)。 即 使 侦 别 为 异常 作答 的 被 坛 ， 也 可 能 
在 部 分 题目 上 正常 作答 ,反之 ,判断 为 正常 作答 
的 被 试 , 也 可 能 在 极 少 题目 上 异常 作答 。 因 此 , 为 


特质 相关 时 (Wise, 2017)， 如 果 异 常 作答 的 比例 较 
大 ,那么 这 种 方式 得 到 的 参数 估计 值 也 是 有 偏 
的 。 为 了 解决 这 一 问题 ， 近 年 来 一 些 研究 者 提出 
了 在 模型 中 处 理 的 方法 。 该 方法 主要 指使 用 混合 模 
型 对 整体 数据 建 模 ,正常 作答 和 异常 作答 的 数据 
分 别 采 用 不 同 的 模型 拟 合 (Meyer, 2010; Molenaar 
et al., 2018; Wang & Xu, 2015; Wang, Xu, & Shang, 
2018; Wise & DeMars, 2006)。 这 种 方法 的 优势 在 
于 能 够 一 次 性 解决 异常 作答 识别 和 参数 估计 的 问 
题 。 并 且 ， 即 使 异常 作答 与 所 测量 的 潜在 特质 有 


了 最 大 程度 保留 有 效 数 据 并 提高 模型 参数 估计 精 
度 ， 混 合 模型 应 能 够 实现 作答 层面 的 分 类 (Patton 
et al., 2019; Yu & Cheng, 2019)。 

为 克服 以 往 混合 模型 的 缺陷 ,近年 来 发 展 起 
来 的 用 于 处 理 异常 作答 的 混合 模型 不 仅 同时 利用 
了 反应 时 和 作答 反应 的 信息 建 模 ,也 可 以 实现 作 
答 层面 的 识别 (Pokropek, 2016; Wang & Xu, 2015). 
然而 ， 这 些 方法 虽然 得 到 了 国外 研究 者 的 广泛 关 
注 ， 但 仍 处 于 方法 的 提出 阶段 ， 缺 乏 对 于 方法 适 
j 性 的 模拟 研究 或 应 用 研究 。 而 国内 学 者 对 于 心 
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理 与 教育 测验 中 的 异常 值 多 采用 拓展 为 四 参数 IRT 
(item response theory, IRT) 模 型 (如 猜测 现象 ， 见 简 
小 珠 等 ,2010)， 或 利用 个 人 拟 合 指标 识别 (例如 
MERE, ILEI 等 , 2020) 等 方式 处 理 。 鲜 有 研究 
者 采用 混合 模型 的 方式 处 理 数 据 中 的 异常 作答 。 
因此 ， 本 文 则 在 通过 详细 介绍 基于 混合 模型 处 理 
异常 作答 的 方法 ,并 与 其 他 识别 方法 进行 对 比 ， 
总 结 并 归纳 其 局 限 性 及 未 来 研究 方向 ， 以 促进 该 
方法 在 国内 理论 研究 和 实证 应 用 的 发 展 。 

本 文 首 先 介绍 心理 与 教育 测验 中 异常 作答 的 
两 类 传统 识别 方法 : 反应 时 赣 值 法 和 反应 时 残 差 
法 。 之 后 详细 综述 基于 混合 模型 处 理 异常 作 管 的 
方法 ， 及 每 种 方法 的 优 和 缺点。 再 综合 比较 这 几 类 
方法 在 处 理 异 常 作答 中 的 特点 、 优 劣 及 使 用 时 的 
注意 事项 。 最 后 , 分 析 混 合 模 型 方法 可 以 改进 的 
方面 ,并 指明 未 来 研究 方向 。 
1.1 反应 时 间 值 法 

JQ MLHY BM {EY (response time threshold method) 
所 基于 的 原理 是 ， 如 果 一 些 被 试 在 作答 某 道 题目 
时 ,反应 时 明显 小 于 正常 被 试 读 题 、 理 解 和 作答 所 
需要 的 时 间 (Michaelides et al., 2020; Wise, 2017)。 
那么 可 以 推断 这 些 被 试 在 这 道 题目 上 为 异常 作 
答 。 这 类 异常 作答 (如 加 速 作答 、 快 速 猜测 作答 等 ， 
以 下 简称 “快速 异常 作答 ”) 具 有 反应 时 短 ,提供 的 
心理 测量 学 信息 少 两 个 方面 的 特征 (Wise，2015， 
2017)。 因 此 ， 对 于 每 道 题目 可 以 确定 一 个 反应 时 
id (HT; G 表示 题目 ), 代表 正常 作答 和 快速 异常 作 
答 行 为 的 界限 。 如 果 被 试 在 题目 上 的 反应 时 大 于 
阔 值 ， 则 为 正常 作答 ,反之 则 为 快速 异常 作答 。 

反应 时 赣 值 法 中 最 简单 的 方法 是 统一 浆 值 法 
(Kong et al., 2007)。 它 是 指 基 于 对 题目 的 先 验 研 究 ， 
给 所 有 题目 确定 统一 的 反应 时 章 值 (如 ，3~5 秒 )。 
由 于 需要 较 长 时 间 读 题 的 题目 理应 有 更 长 的 阔 值 ， 
统一 阔 值 的 设 定 显然 不 合理 ， 因 此 一 些 学 者 提出 
了 根据 题目 特征 求 阔 值 法 (Kong et al., 2007; Silm 
et al., 2013)。Schnipke 和 Scrams (1997, 2002) 基 于 
大 量 观察 发 现 ,包含 快速 异常 作答 的 反应 时 分 布 
呈现 双 峰 分 布 的 特点 : 第 一 个 峰值 频数 较 小 ， 反 
应 时 很 短 ， 表示 快速 异常 作答 。 第 二 个 峰值 频数 
较 大 ,反应 时 较 长 ,表示 正常 作答 。 双 峰 分 布 交 点 
求 阔 值 法 将 两 个 分 布 交 点 所 对 应 的 反应 时 作为 阔 
值 。Wise 和 Ma (2012) 通 过 大 量 观察 发 现 ， 当 反应 
时 超过 一 个 固定 的 时 间 点 之 后 ,作答 正确 率 会 从 


随机 水 平 开始 显著 升 高 。 这 个 固定 的 时 间 点 就 标 
志 着 正常 作答 和 低 正 确 率 快速 异常 作答 (例如 快 
速 猜测 作答 等 ) 的 分 界 点 ， 它 大 概 等 于 每 道 题目 平 
均 反 应 时 的 10% (同时 不 超过 10 Bb). HELI 
将 这 个 分 界 点 作为 反应 时 靖 值 。 基 于 信息 求 净值 
法 假设 , 随 着 反应 时 增加 ,题目 作答 正确 率 和 整 
个 测验 表现 的 平均 正确 率 的 相关 表现 出 从 无 信息 
( 低 相关 ) 到 有 信息 (高 相关 ) 的 转换 ， 发 生 这 种 转变 
的 点 ( 即 题目 得 分 和 总 分 的 相关 为 0.2) 可 以 作为 阔 
值 (Wise, 2019)。 条 件 分 布 法 是 一 种 针对 选择 题 的 
结合 了 反应 时 和 正确 率 的 求 闷 值 方法 (Ma et al., 
2011; Guo et al., 2016)。 它 的 原理 是 找到 作答 正确 
率 等 于 随机 水 平时 所 对 应 的 反应 时 ， 作 为 划分 两 
种 作答 行为 的 反应 时 阅 值 。 

反应 时 赣 值 法 大 多 基于 快速 异常 作答 的 特点 
提出 , 较 简单 、 直 接 , 易于 理解 。 并 且 ， 在 大 部 分 
应 用 研究 中 取得 了 较 好 的 效果 (Kong et al., 2007)。 
但 是 每 种 方法 仍 存在 一 定 的 局 限 性 。 首 先 ， 统 一 
浆 值 法 尽管 最 简单 ,但 是 由 于 不 同 题目 特征 不 同 
所 需 读 题 和 扫描 的 时 间 也 不 一 定 相 同 (Yan & 
Tourangeau，2008)， 对 所 有 题目 使 用 相同 阔 值 显 
然 不 合理 。 为 改进 这 一 不 足 ， 根 据 题目 特征 求 阔 
值 法 基于 题目 特征 设置 冰 值 。 但 是 要 使 用 哪些 特 
征 确定 国 值 ， 如 何 根据 这 些 特征 确定 闵 值 也 没有 
普遍 认可 的 结论 。 其 次 ， 双 峰 分 布 交 点 求 浆 值 法 
最 主要 的 问题 是 ,实践 中 有 很 多 情况 下 反应 时 不 
是 双 峰 分 布 。 例 如 ， 当 正常 作答 行为 所 需 反应 时 
本 身 就 很 短 时 (Wise，2017，2019)， 两 种 作答 反应 
时 的 分 布 会 交叉 重 倒 ,反应 时 就 不 一 定 是 双 峰 分 
布 。 基 于 信息 求 冰 值 法 和 常 模 阔 值 法 虽然 能 够 在 
双 峰 分 布 不 存在 的 条 件 下 应 用 。 但 是 ， 当 题目 整 
体 区 分 度 较 低 , 或 者 两 种 作答 的 正确 率 相 差 不 大 
时 ， 基 于 信息 求 阔 值 法 的 结果 不 够 准确 。 而 常 模 
闽 值 法 仅 通 过 经 验 观 察 提 出 ， 其 推广 性 仍 需要 经 
过 模拟 和 实证 研究 检验 。 最 后 ， 条 件 分 布 法 虽然 
能 够 有 效 区 分 正常 作答 和 低 正 确 率 快速 异常 作答 
(Guo et al., 2016; Lee & Jia, 2014), 但 是 ， 这 个 方 
法 在 应 用 方面 存在 三 个 问题 。 一 是 由 于 必须 已 知 
随机 水 平 的 正确 率 ,因此 一 般 只 适用 于 单项 选择 
题 。 二 是 需要 通过 观察 每 道 题目 上 作答 反应 和 反 
应 时 的 分 布 找 出 姜 值 ， 很 难 大 批量 自动 化 地 应 用 
于 大 规模 测验 。 三 是 实际 中 存在 大 量 累积 正确 率 
曲线 与 随机 水 平 没有 交点 的 情况 ,这 种 情况 下 如 
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何 确定 阔 值 仍 没 有 统一 有 效 的 结论 。 
12 反应 时 残 差 法 

反应 时 残 差 法 (response time residual method) 
将 反应 时 模型 与 数据 拟 合 ,并 基于 模型 参数 计算 
反应 时 残 差 或 期 望 分 布 ， 将 实际 反应 时 残 差 (或 反 
应 时 ) 与 其 理论 分 布 比较 ， 以 识别 反应 时 异常 短 的 
快速 异常 作答 。 目 前 所 提出 的 反应 时 残 差 法 主要 
包括 基于 van der Linden (2006) 的 反应 时 模型 的 标 
准 化 反应 时 残 差 法 (Qian et al., 2016) 和 基于 van der 
Linden (2007) 的 多 层 模型 的 贝 叶 斯 残 差 法 (van der 
Linden & Guo, 2008)。 两 种 方法 的 区 别 在 于 ,标准 
化 反应 时 残 差 法 是 借助 标准 化 反应 时 残 差 符合 标 
准 正 态 分 布 进行 判断 ， 仅 利用 了 反应 时 信息 。 而 
贝 叶 斯 残 差 法 将 实际 的 作答 反应 和 反应 时 与 多 层 
模型 拟 合 ， 然 后 将 反应 时 观测 值 与 其 后 验 预测 密 
度 比较 做 出 判断 ， 同 时 利用 了 作答 反应 和 反应 时 
的 信息 。 

反应 时 残 差 法 的 优势 在 于 背后 有 特定 的 理论 
模型 (分 布 )， 不 需要 通过 观察 设 定 阔 值 ， 也 不 存 
在 无 法 找到 阔 值 的 特例 ， 可 以 大 批量 应 用 。 但 是 
这 类 方法 所 面临 的 最 大 问题 在 于 ,高 比例 的 快速 
异常 作答 会 导致 参数 估计 结果 的 偏差 .进而 造成 
标准 化 反应 时 残 差 或 反应 时 后 验 预 测 密度 的 偏差 ， 
难以 得 到 准确 的 识别 结果 。 例 如 , Wang, Xu, Shang 
和 Kuncel (2018) 研 究 发 现 ， 随 着 快速 异常 作答 比 
例 增加 ， 贝 叶 斯 残 差 法 表现 显著 变 差 。 即 使 快速 
异常 作答 数据 基于 残 差 法 假设 生成 ， 当 个 人 快速 
异常 作答 的 比例 产生 于 U(0.5，0.75) 的 均匀 分 布 时 ， 
贝 叶 斯 残 差 法 的 正确 识别 率 只 有 0.301。 


2 混合 模型 法 


与 识别 并 降低 权重 的 两 阶段 方法 相 比 , 混合 
模型 法 (mixture model method) 能 够 一 次 性 解决 异 
常 作 答 识 别 及 参数 估计 的 问题 。 并 且 ， 贝 叶 斯 框 
架 下 的 马尔 科 夫 链 蒙 特 卡 洛 (Markov Chain Monte 
Carlo，MCMC) 算 法 的 发 展 ， 较 好 地 解决 了 这 类 模 
型 参数 估计 的 问题 。 因 此 近年 来 不 断 有 研究 者 提 
出 使 用 混合 模型 处 理 测验 中 的 异常 作答 。 以 下 将 
这 些 方法 分 为 两 类 进行 介绍 。 第 一 类 方法 使 用 反 
应 时 来 预测 每 个 作答 所 属 的 潜 类 别 , 第 二 类 方法 
则 直接 将 含有 作答 反应 和 反应 时 的 多 层 横 型 拓展 
为 混合 模型 ， 同 时 估计 得 到 各 题目 、 被 试 参数 和 
类 别 潜 变量 的 估计 值 。 


2.1 使 用 反应 时 预测 类 别 的 混合 模型 
2.1.1 ”等 级 分 组 的 反应 时 模型 

Pokropek (2016) 借 用 等 级 分 组 模型 的 思想 ， 
将 反应 时 信息 与 IRT 模型 结合 ,提出 了 等 级 分 组 
的 反应 时 模型 ， 专 门 用 于 识别 快速 猜测 作答 。 

假设 正常 作答 用 Rasch 模型 拟 合 ,快速 猜测 
作答 的 答对 概率 设 为 1。 答 对 概率 可 以 表示 为 
exp(O — 2;) 
1+exp(O — 8) 
其 中 , Yy ea hid j 在 题目 i 上 的 作答 ,Ci 表示 分 
组 (1 表示 猜测 组 ，2 ZANTE WEA), my 表示 基于 
协 变量 Z (反应 时 ), 将 被 试 j 在 题目 i 上 的 作答 分 
到 组 1 的 概率 ，1- zz 表示 分 到 组 2 的 概率 ， 
(exp(9; — B,))/ (1+ exp(0, — 8) 是 Rasch 模型 , 其 
中 9; 表示 被 试 j 的 能 力 参 数 ，B 表示 题目 i 的 难 
度 参 数 。 该 模型 将 快速 猜测 作答 的 答对 概率 限定 
为 1, 这 也 适用 于 对 题目 有 预 了 解 的 作答 。 如 果 将 
该 模型 用 于 不 努力 作答 的 情境 ,根据 其 正确 率 低 
的 特点 ， 可 以 将 答对 概率 设 为 一 个 较 低 的 值 (如 对 
于 多 项 选择 题 ， 设 为 随机 水 平 )。 

Tyg 可 以 使 用 反应 时 来 预测 ， 即 

P(C; =|time; ) 
n 

1- P(C; =l|time; ) 
其 中 , a Fi b 表示 预测 被 试 j 在 题目 i 上 的 作答 分 
组 的 截 距 和 和 斜率 。 

该 模型 可 以 应 用 Mplus 软件 , 采用 稳健 标准 误 
的 极 大 似 然 估计 方法 估计 参数 (Pokropek,，2016)。 
Pokropek (2016) 使 用 模拟 研究 证 明 该 方法 能 够 得 
到 较 准 确 的 识别 结果 和 参数 估计 结 
2.12 ” 半 参 数 化 的 混合 模型 
Molenaar 等 人 (2018) 提 出 了 半 参 数 化 混合 模 
型 来 区 分 快速 作答 和 慢 速 作答 。 如 果 分 类 结果 显 
示 快 速 作答 的 反应 时 小 于 正常 被 试 读 题 、 理 解 和 
作答 所 需要 的 时 间 ， 则 可 以 认为 所 识别 出 的 快速 
作答 即 为 快速 异常 作答 ， 而 慢 速 作答 为 正常 作 
答 。 该 方法 假设 在 每 个 类 别 内 部 ， 反 应 时 服从 对 
数 正 态 分 布 。 使 用 p = 1,..., N 代表 被 试 , i = 1,.…， 
I 代表 题目 。 C, 表示 被 试 p 在 题目 i 上 的 作答 类 
Il, Bit Cw =0 表示 慢 速 作答 ，C,; =1 表 示 快 速 
作答 。 被 试 p 在 工 道 题目 上 的 分 类 为 向 量 C， = 


[CpwCp2.…sCm] 。 观 察 到 作答 向 量 为 x, = 


P(Y, =1C, =1,2) = ay, +(1- zy | (1) 


Tijz = =a+b-time; (2) 
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[X pX pz X pr | 的 概率 为 


I 
Plodéres)=| Jol)" 0-5)" 6) 
i=l 


其 中 
mi = | ww (1 -Ca T Ca |8, +All -Ca) + PiCp:; (4) 
0, 是 被 试 p 的 能 力 参 数 ，o() 是 logistic 方程 ， 
a, 是 题目 i 在 类 别 s 的 区 分 度 参数 (s=0,1), By 是 
题目 i 在 类 别 s 的 容易 度 参数 。 

假设 被 试 p 在 题目 i 上 的 连续 反应 时 六 能 够 
通过 一 定 的 转换 关系 得 到 类 别 变量 Tw ， 即 : 
Tpi =z 如 果 Kk(Toajs(bpabeaoihjz=01…Z-1 (5) 
其 中 , bz 表示 反应 时 转换 的 阔 值 , Z 表示 反应 时 转 
换 后 的 类 别 数 ，k(.) 表示 转换 函数 。 如 果 用 虚无 变 
Œ doz 表示 Tp 是否 属 于 类 别 z (dpiz=1 或 者 dpi=0)， 
可 以 使 用 广义 线性 IRT 模型 表示 分 类 关系 

b| E(4yiltp€p) |=%i- SC -Prp 5>0 (6) 
Vai 表示 题目 i 的 反应 时 属于 类 别 z 的 反应 时 类 别 
BRU PÆRE, t, 是 被 试 p 的 速度 参数 ，5 是 
作答 分 类 的 系数 。 限定 6>0 是 为 了 确保 作答 类 别 
为 Cp; =1 的 反应 时 分 到 低 的 反应 时 类 别 z 中 可 能 
性 更 大 ， 即 反应 时 更 短 ， 因 此 Cw =1 表 示 快 速 作 
答 ，Cw =0 表示 慢 速 作答 。 他 们 提出 了 两 种 链接 
函数 b(:) ， 累 积 类 别 函 数 和 相 邻 类 别 函 数 ， 用 于 
预测 反应 时 属于 某 个 类 别 的 概率 。 其 中 ， 累 积 类 别 
函数 类 似 于 等 级 评分 模型 (Samejima, 1969)， 相 邻 类 
别 函 数 类 似 于 分 部 计 分 模型 (Masters, 1982)。 例 如 ， 
使 用 相 邻 类 别 函 数 ， 有 


T pi 
I aE -ôC -om 
pin] -=| [= ie (7) 
= Yd ~ -gr 


其 中 类 别 参 数 y 可 以 根据 下 式 的 限定 得 到 


Z-1 


> - 8 -pr +y =0 (8) 


z=0 
研究 证 明 ， 当 反应 时 转换 后 的 类 别 数 设 定 为 

7、5 或 3 时 ,该 方法 能 得 到 无 偏 的 参数 估计 结 

相 比 于 将 反应 时 当 作 连 续 变 量 的 方法 , 检验 力 几 

平 不 受 影响 (Molenaar et al., 2018). 
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为 了 弥补 半 参 数 化 的 混合 模型 将 反应 时 转换 


为 分 类 变量 的 缺陷 Molenaar 和 de Boeck (2018) 
提出 了 基于 反应 时 的 混合 作答 反应 模型 以 区 分 快 
速 作答 和 慢 速 作答 。 

在 反应 时 部 分 ， 参考 van der Linden (2006) 的 
模型 。 使 用 p= 1,..., N 代表 被 试 , i = 1,..., I 代表 
MA, 对 于 原始 反应 时 Tri， 有 

In (Ti)= 4 -ry + ep (9) 
Eh, ARREBB i 的 时 间 密 度 参数 ，z, 表示 被 
试 p 的 速度 参数 ，s, 是 残 差 项 。 

在 作答 反应 部 分 , 分 别 对 快速 作答 和 慢 速 作 
答 定 义 不 同 的 测量 模型 (Partchev & de Boeck, 
2012)。 即 

P(X; =10,, Zois 0i» Pois Bii ) = 

P(X p =16,,2 Bo) + 

(1-7 p) P(X; =11,.0%;,8:) (10) 
P, ay 表示 被 试 p 在 题目 i 上 的 作答 属于 类 别 
0 的 概率 ，1- ry 则 表示 被 试 p 在 题目 i 上 的 作答 
属于 类 别 1 RER do Boi P i Bi 分别 表示 类 
别 0 和 类 别 1 的 作答 在 题目 i 上 的 区 分 度 参数 、 
难度 参数 。 与 两 参数 IRT 模型 一 致 ， 类别 0 和 类 
别 1 的 测量 模型 可 以 分 别 表示 为 

logit| (x | — Boi (11) 


logit| (Xp =p h) |= 29 ~ Bi (12) 


然后 使 用 反应 时 来 预测 类 别 。 被 试 p 在 题目 
i 上 的 作答 属于 类 别 0(Cp=0) 概 率 的 logit 为 
logit| BP(C =0T dtpomtud)|= 


站 3 a3) 


Oci 


JEP, ARSH C, e[0,%m) 以 避免 标签 转移 ( 指 两 
个 类 别 意义 的 转移 )。 被 试 p 在 题目 i 上 的 实际 反 
应 时 与 模型 预测 均值 相 比 越 长 ， 越 可 能 被 分 到 类 
别 0 中。 因此, 类别 0 代表 慢 速 作 答 ,， 类别 1 表示 
快速 作答 。 截 距 参 数 Cy 表示 作答 被 分 到 慢 速 
类 别 的 难度 参数 。 模 拟 研究 证 明 ， 应 用 贝 叶 其 
架 下 的 MCMC 算 法, 该 模型 能 够 得 到 较 准 确 的 参 
数 佑 计 结 果 (Molenaar & de Boeck, 2018). 
2.2 ”基于 反应 时 和 作答 反应 的 混合 多 层 模 型 
2.21 混合 多 层 模型 

van der Linden (2007) 的 多 层 模 型 是 迄今 最 流 
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行 的 ,基于 作答 反应 和 反应 时 的 多 层 模 型 。 该 模 
型 包括 两 个 水 平 , 第 一 水 平 是 测量 模型 ， 包括 作 
答 反应 部 分 的 IRT 模型 和 反应 时 部 分 的 标准 对 数 
正 态 分 布 模型 。 第 二 水 平 是 个 体 水 平 , 通过 能 
和 速度 的 协 方差 结构 ,将 作答 反应 和 反应 时 联系 
起 来 。 

具体 来 看 ， 第 一 水 平 的 模型 可 以 表示 为 
exp(a, (4, -b;)) 
1+exp(a,(4 -b;)) 
In(ty)|¢; ~ N(B, -1;,0%;") 反应 时 模型 


p(y, =1|4) = 作答 反应 模型 
(14) 


Jep, P(Y =1|0; 表示 被 试 Ki = 1,..., DD 在 题目 j 
0 =1,.…, 办 上 正确 作答 的 概率 ，4 表示 被 试 i 在 题 
目 j 上 的 反应 时 ，a, 和 b; 分 别 是 题目 j 的 区 分 度 
参数 和 难度 参数 ，p, 表示 题目 j 的 时 间 密 度 参数 
a 表示 题目 j 的 时 间 区 分 度 参数 。 时 间 密 度 类 似 
FORT 中 难度 的 概念 ， 时 间 密 度 越 大 ， 完 成 题目 
所 需要 的 时 间 就 越 长 ， 而 时 间 区 分 度 类 似 于 IRT 
中 区 分 度 的 概念 ， 时 间 区 分 度 越 大 ,不 同 速度 被 
试 在 题目 上 期 望 反 应 时 的 差异 就 越 大 。NO 表 示 正 
态 分 布 ，0 Alc, 是 被 试 i 的 能 力 参数 和 速度 参数 。 
在 第 二 水 平 (个 体 水 平 ), 假设 被 试 参 数 &=(0,7) 
服从 二 元 正 态 分 布 ~N(p,,z2,)， 其 中 均值 向 量 
为 oy = (1p;K)， 协 方差 矩阵 为 

z, (2 a (15) 


2 
O79 Or 


为 了 模型 识别 ， 对 于 作答 反应 模型 通常 限定 
Uy = 0,65 =1 。 对 于 反应 时 模型 ， 可 以 限定 速度 
参数 的 均值 或 者 时 间 密 度 参数 的 均值 Wang 和 Xu 
(2015) 建 议 限定 w=0 以 便于 和 作答 反应 模型 的 
限定 保持 一 致 。 

这 一 模型 的 优势 为 在 同一 模型 中 协调 了 速度 
和 能 力 的 关系 ,因此 ,反应 时 信息 可 以 帮助 提高 
作答 反应 模型 参数 估计 准确 性 ， 反 过 来 ， 作 答 反 
应 信息 也 可 以 帮助 提高 反应 时 模型 参数 估计 准确 
性 (van der Linden, 2007)。 

在 此 基础 上 ，Wang 和 Xu (2015) 提 出 了 基于 
反应 时 和 作答 反应 的 混合 多 层 模 型 (mixture 
hierarchical modeD)， 用 于 识别 异常 作答 。 根 据 正常 
作答 行为 和 异常 作答 行为 的 特点 ， 可 以 对 总 体 的 
作答 反应 模型 和 反应 时 模型 进行 分 解 。 

在 作答 反应 模型 部 分 ,被 试 i 在 题目 上 答对 


的 概率 为 
P(Y; =1A;)= 

(1- Ay) P(¥, =1Ay =0)+ A,P(¥, =1A; =1) (16) 
其 中 ，A; 是 表示 作答 行为 分 类 的 潜 变 量 ，Ay =1, 
表示 被 试 i 回答 题目 j 是 异常 作答 ，A; =0， 表 示 
是 正常 作答 。 如 果 A; =0, 可 使 用 三 参数 logistic 
(3PL) 模 型 预测 正常 作答 的 答对 概率 。 

P(Y; =1lAy =0,a;,b;,c;)= 


By 


Ci +(I c;) (17) 

Hoh, a,b 和 cj 分 别 代 表 题目 j 的 区 分 度 参 
数 、 难 度 参数 和 猜测 参数 。 4 表示 被 试 i 的 能 力 
参数 。 

根据 测验 性 质 和 作答 类 型 的 不 同 ,其 他 的 
IRT 模型 ， 例 如 两 参数 logistic (2PL) 模 型 、 分 部 计 
分 模型 或 者 等 级 评分 模型 也 可 以 应 用 于 这 一 混合 
多 层 模型 的 框架 下 。 如 果 A, =1, 被 试 i 回答 题目 
j 是 异常 作答 , 答对 概率 是 g;。 即 

P(Y; =A; =1)=g; (18) 

注意 这 里 的 9 ) 与 三 参数 logistic (3PL) 模 型 中 
猜测 参数 c 的 含义 不 同 。g; 表示 被 试 异常 作答 的 
正确 率 。 而 cj 反映 了 被 试 正常 作答 条 件 下 的 猜测 
正确 率 。 

在 反应 时 模型 部 分 , 假设 对 于 被 试 i 和 题目 j 
观察 到 的 反应 时 Ti9” 可 以 表示 为 

Ty” =(1- Ay )T + AGC (19) 

Fh, 1, aN BGK i 正常 作答 题目 j 所 需 的 时 间 ， 
C, 表示 被 试 i 异常 作答 题目 j 所 需 的 时 间 。 

假定 正常 作答 行为 的 反应 时 服从 对 数 正 态 分 
布 (van der Linden, 2007)。 


2 
saft) (20) 
的 


Soh, p 是 题目 j 的 时 间 密度 参数 ，wj 是 题目 ) 
的 时 间 区 分 度 参数 ，7 是 被 试 i 的 速度 参数 。 

假定 异常 作答 行为 的 反应 时 也 服从 对 数 正 态 
sti 


In(C,)~ N (u0) (21) 
这 个 分 布 的 均值 (人 ) 和 方差 (cz ) 对 于 所 有 的 


JF! 


:202303.09604v1 


chinaXiv 


ChinaXiv 合 作 期 干 


1702 心理 科学 进展 第 29 卷 


被 试 和 题目 都 相同 ， 用 于 反映 异常 作答 提供 的 心 
理 测量 学 信息 少 的 特点 。 

与 van der Linden (2007) 的 多 层 模 型 一 致 ， 该 
混合 模型 包含 三 个 局 部 独立 性 假设 。 第 一 ， 基 于 
被 试 的 能 力 水 平和 是 否 正常 作答 的 分 类 ， 作 答 反 
应 具备 条 件 独立 性 。 第 二 ， 基 于 被 试 的 速度 水 平 
和 是 否 正常 作答 的 分 类 , 反应 时 具备 条 件 独立 
性 。 第 三 ， 基于 被 试 参 数 ( 能 力 参 数 、 速 度 参数 ) 
和 是 否 正常 作答 的 分 类 ， 对 于 每 道 题目 来 说 ， 作 
答 反 应 和 反应 时 具备 条 件 独 立 性 。 

Wang 和 Xu (2015) 采 用 基于 蒙特 卡 洛 的 EM 
算法 (Monte Carlo-based EM algorithm, MCEM) 估 
计 参 数 , 这 一 算法 是 在 标准 EM 算法 的 基础 上 , 通 
过 蒙特 卡 洛 模拟 的 方式 得 到 EE 步 又 的 期 望 值 。 在 
MCEM 的 每 次 迭代 中 ,取得 一 个 蒙特 卡 洛 样本 最 
方便 的 方式 就 是 使 用 MCMC 算 法 , 通常 包括 Gibbs 
抽样 或 者 MH (Metropolis—Hastings, MH) 抽 样 。 后 
X, Wang 等 人 (Wang, Xu, & Shang, 2018; Wang, 
Xu, Shang, & Kuncel，2018) 又 直接 采用 了 贝 叶 斯 
框架 下 的 MCMC 算法 得 到 参数 的 后 验 分 布 ， 进 而 
计算 后 验 均 值得 到 参数 的 点 估计 值 。 后 面 2.2.2 一 
2.2.4 中 介绍 的 模型 都 采用 该 方法 实现 参数 估计 。 
这 类 估计 方法 的 优势 主要 有 两 个 方面 。 一 是 它 允 
许 针对 不 同类 型 的 异常 作答 ,对 模型 中 的 参数 加 
入 特定 的 先 验 分 布 ， 以 限定 参数 估计 值 的 大 致 范 
围 。 例 如 ,我们 可 以 限定 快速 异常 作答 反应 时 的 
均值 么 为 一 个 均值 相对 较 小 的 分 布 , 用 以 表示 其 
反应 时 短 的 特点 。 又 例如 ,快速 猜测 作答 和 加 速 
作答 的 gj 应 当 限 定 为 小 于 正常 作答 使 用 3PL 模型 
得 到 的 答对 概率 值 ， 而 对 题目 有 预 了 解 的 作答 的 
gj 应 当 限 定 为 大 于 正常 作答 使 用 3PL 模型 得 到 的 
答对 概率 值 。 二 是 对 于 每 个 参数 可 以 得 到 其 后 验 
分 布 ， 便 于 基于 整个 后 验 分 布 而 不 是 点 估计 值 进 
行 后 续 的 统计 检验 (如 后 验 预测 p 值 ，posterior 
predictive p-value, PPP 等 )。 

Wang 和 Xu (2015) 的 模拟 研究 结果 证 明 ， 当 数 
据 中 同时 含有 正常 作答 与 异常 作答 时 ， 应 用 混合 多 
层 模型 相 比 于 传统 多 层 模 型 能 够 得 到 更 准确 的 参 
数 估 计 结 果 。Wang, Xu, Shang 和 Kuncel (2018) 的 研 
究 证 明 , 无论 数据 是 基于 混合 多 层 模 型 还 是 残 差 
模型 产生 ， 混 合 多 层 模 型 在 正确 识别 率 和 错误 拒绝 
率 上 表现 都 较 好 ,特别 是 当 异 常 作答 的 比例 较 高 
时 ,该 模型 相 比 于 贝 叶 斯 残 差 法 优势 更 加 明显 。 


2.2.2 ”应 用 于 高 阶 IRT 的 混合 多 层 模型 

Lu 等 人 (2020) 近 期 又 将 混合 多 层 模型 拓展 应 
用 于 高 阶 IRT 模 型 ， 主要 人 处 理 测验 结构 为 题目 间 多 
维 的 情况 。 这 一 模型 在 作答 反应 模型 部 分 采用 高 
阶 IRT 模 型 ， 即 对 于 被 试 1 在 分 维度 v(v=1,2,3,...V, 
共 V 
个 分 维度 ) 上 的 能 力 0) ， 有 如 下 线性 关系 

A = BO + ey) (22) 
Hh, 0° RRE i 的 高 阶 能 力 ，p, 表 示 0? 的 
回归 系数 ，s 表示 OO 的 残 差 项 。 基 于 模型 识别 
的 考虑 , BBE A? ~N(0,D, IE a ~N(0,1-#) o 
这 样 的 限定 能 够 保证 高 阶 能 力 和 低 阶 能 力 在 同一 
尺度 上 。 ty 为 表示 作 管 是 否 为 正常 作答 的 指标 变 
it, 其 值 为 1 表示 异常 作答 , 0 表示 正常 作答 。 当 
被 试 i 在 分 维度 v 的 题目 i 上 的 作答 为 正常 作答 时 
(mw =9), 可 以 使 用 三 参数 正 态 户型 模型 (也 可 以 
使 用 其 他 IRT 模型 ) 拟 合 数 据 ， 即 
P(Y; =1|n;, =0, OW,an,b,ch)= 
c; +(1-cy)-®(a,, -(09 -b;)) (23) 
其 中 ，@() 表示 标准 正 态 分 布 函 数 ，aj;,,b;, 和 ch 
分 别 表示 分 维度 v 上 题目 j 的 区 分 度 参 数 ， 难 度 参 
数 和 猜测 参数 。 

该 模型 关于 异常 作答 的 正确 作答 概率 ， 以 及 
反应 时 部 分 模型 的 分 解 , 均 与 Wang 和 Xu (2015) 
的 混合 多 层 模 型 一 致 。Lu 等 人 (2020) 在 多 维 测 验 ， 
且 每 个 维度 的 题目 数 ， 时 间 限 制 不 同 的 情境 下 模 
拟 数据 ， 比 较 了 这 一 模型 和 基于 单 维 IRT 模型 的 
混合 多 层 模型 的 表现 。 结 果 证 明 , 该 模型 的 参数 
估计 偏差 更 小 , 识别 准确 性 更 高 。 

2.2.3 ”基于 混合 多 层 模型 的 两 步 方 法 

针对 同时 存在 不 努力 作答 和 对 题目 有 预 了 解 
的 情境 ，Wang，Xu 和 Shang (2018) 在 混合 多 层 模 
型 的 基础 上 ， 又 提出 了 确定 异常 行为 模式 的 两 步 
方法 。 
具体 来 说 ,第 一 步 是 将 数据 与 混合 多 层 模 
拟 合 。 第 二 步 是 通过 对 作答 模式 的 检验 ， 进 一 步 
确定 异常 作答 是 不 努力 作答 还 是 对 题目 有 预 了 解 
的 作答 。 

第 二 步 的 检验 方法 为 ， 首 先 ， 对 于 蜡 常 作答 
的 题目 进行 汇总 ， 即 对 于 被 试 i, 计算 异常 作答 


=< 


be 


= 
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(A, =1) 的 题目 数 三 。 然 后 ， 计 算 每 名 被 试 标准 化 
| 


V(O)= aT Gs aa 


其 中 ，P, (6 ) 是 基于 被 试 i en 
代入 IRT 模 型 计算 得 到 的 被 试 i 在 题目 i 上 正常 作 
答 的 期 望 概率 。 由 于 这 个 式 子 中 6 的 点 估计 值 可 
能 不 准确 ， 因 此 Wang, Xu 和 Shang (2018) 使 用 贝 
叶 斯 方法 来 改进 。 即 , 使 用 P(1ly? ) 蔡 代 P; (â) 


ee 


(24) 


(0) [1-P.(0)] * g(0)d0 (25) 


keR 7 

HP, y ,表示 被 坛 1 在 正常 题目 (A -0) 上 的 作答 
反应 ，BR(9) 是 基于 3PL 模型 计算 的 被 试 i 在 第 
道 正 常 作答 的 题目 上 的 正确 率 ，yi 表示 被 试 i 在 
第 k 道 正常 作答 的 题目 上 的 实际 作答 ，R_, 表示 
被 试 i 正常 作答 的 题目 。g(9) 表示 9 的 先 验 密度 
Hj 是 被 试 i 在 题目 i 上 的 正 态 化 常数 。 

最 后 确定 阔 值 w 如 果 V(6)>v， 被 试 i 的 异 
常 作答 是 对 题目 有 预 了 解 ， 如 果 甩 (9) < -v， 被 试 
i 的 异常 作答 是 不 努力 作答 ， 如 果 V<V,(0)<v, 
被 试 i 的 异常 作答 混合 了 以 上 两 种 模式 。 他 们 的 
模拟 研究 (Wang, Xu, & Shang, 2018) 探 讨 了 阅 值 v 
的 选取 问题 ,建议 在 实践 中 选择 v=0。 研 究 证 明 ， 
基于 混合 多 层 模 型 的 两 步 方法 不 仅 能 够 在 各 种 条 
件 下 得 到 较 高 的 正确 识别 率 和 较 低 的 错误 拒绝 率 ， 
还 能 够 得 到 较 准 确 的 参数 估计 结果 。 
2.2.4 考虑 了 缺失 数据 的 混合 多 层 模 型 

针对 同时 存在 不 努力 作答 和 缺失 的 情境 ， 基 于 
混合 多 层 模 型 ，Ulitzsch 等 人 (2020) 提 出 了 考虑 了 
缺失 数据 的 混合 多 层 模型 。 这 一 模型 的 基本 框架 
是 将 作答 先 分 为 正常 作答 和 不 努力 作答 ,其 中 不 努 
力作 答 又 有 忽略 题目 和 随机 猜测 作答 两 种 表现 。 

他 们 的 模型 中 加 入 了 潜 变 量 办 用 以 表示 被 试 
i 的 努力 程度 。 使 用 Rasch 模型 来 预测 被 试 是 否 努 
力作 答 的 概率 ， 可 以 得 到 
exp(¢-1)) 
1+exp(¢,-1) 
示 题 目 j 的 努力 程度 难度 ， 类 似 于 IRT 


P(A, =1)= (26) 


其 中 ， lji 表 不 


中 对 难度 的 定义 ，4j 越 高 ,表示 被 试 在 这 道 题 目 
上 越 不 容易 努力 作答 ，Ai 为 是 否 努 力作 管 的 二 
分 变量 ( Ay =1 表 示 努 力作 答 ，Ai =0 表示 不 努力 
人 定义 了 一 个 表示 作答 是 缺失 的 二 
分 变量 di, di =1 表示 被 试 i 在 题目 j 上 无 作答 ， 
dj =0 表示 被 试 i 在 题目 i 上 有 作答 。 如 果 被 试 i 在 
题目 ) 上 是 努力 作答 (Ai =1), W P(d =A; =1)= 
0, P(d, =O|A, =1)=1， 即 被 试 i 在 题目 i 上 肯定 有 
作答 。 此 时 可 参考 van der Linden(2007) 的 多 层 模 
型 拟 合作 答 反 应 和 反应 时 。 如 果 被 试 i 在 题目 j 
上 是 不 努力 作答 (Ai =0), 那么 dj =1 表 示 被 试 i 
在 题目 ) 上 是 由 于 忽略 而 缺失 ，d; =0 表示 被 试 i 
在 题目 i 上 是 随机 猜测 。 则 有 
exp (Xo + 119; + yaT;) 
1l+exp(7o +718; +721;) 
其 中 ，Q 和 «分别 表 示 被 试 i 的 能 力 参 数 和 速度 
BR yoM y n 分别 是 截 距 和 和 斜率 参数 。 对 于 随 
机 猜测 作答 ,答对 的 概率 为 
P(u, =1ldy =0,Ay =0)=c (28) 

其 中 , c 是 猜测 参数 。 

在 反应 时 部 分 , 与 Wang 和 Xu(2015) 的 模型 
一 致 ,不 努力 作答 的 反应 时 服从 均值 (pp ) 和 方差 
(op) 恒 定 的 对 数 正 态 分 布 ， 即 

In(ilAy =0)~ N(Bp.o3) (29) 

此 外 ,还 假定 不 努力 作答 所 需要 的 反应 时 小 
于 努力 作答 ， 因 此， 努力 作答 题目 的 时 间 密 度 参 
数 ( B, ) 和 不 努力 作答 的 对 数 反 应 时 均值 ( Bp ) 存 
在 以 下 关系 

Bi = Bo +8; HB; 20 (30) 
Kt, GRRMPRA j, 努力 与 不 努力 作答 相 
比 多 花 的 时 间 。 
最 后 ,假设 所 有 被 试 参 数 服 从 均值 为 


(27) 


P(d; =1Ay =0)= 


Hp =( Ly Ho tlr ) G1) 
协 方差 矩阵 为 
og Op Opr 
Zp = Oop o3 Cor (32) 
On Or a 
的 多 元 正 态 分 布 。 


综 上 ， 该 模型 框架 可 以 | 和 图 Al 1 表示 。 


和 


:202303.09604v1 


chinaXiv 


ChinaXiv 合 作 期 干 


1704 心理 科学 进展 第 29 卷 


P(dy = Ay = 0) 


1 + exf(%o + 716; + pot) 


In(tylAy= 0)~N(Bo, ob) 


不 努力 作答 


exp(¢; + 7; ) 


P(d;= O|Ay= Tri 


In(tj|Ay= DNB- GY) 


努力 作答 


图 1 考虑 了 缺失 的 混合 模型 示意 图 


模拟 研究 证 明 ， 在 不 努力 作答 比例 较 高 的 条 
VER, 该 模型 参数 估计 的 返 真 性 较 好 (Ulitzsch et al., 
2020)。 

2.3 混合 模型 法 简 评 

混合 模型 在 处 理 异 常 作 答 时 最 大 的 优势 在 于 
能 够 同时 完成 异常 作答 的 识别 和 模型 参数 估计 。 
具体 来 看 , 各 方法 具有 如 下 局 限 性 。 

首先 ， 等 级 分 组 的 反应 时 模型 方法 包含 强 假 
设 ， 即 对 于 所 有 题目 所 有 被 试 ， 快 速 猜测 作答 的 答 
对 概率 为 1。 这 显然 不 尽 合理 。Wang 和 Xu (2015) 
的 混合 多 层 模型 就 弱化 了 这 一 假设 ， 限 定 每 道 题 
目 异 常 作答 的 答对 概率 为 go 其次， 半 参 数 化 的 
混合 模型 和 基于 反应 时 的 混合 作答 反应 模型 都 
于 区 分 快速 作答 和 慢 速 作答 ， 其 识别 快速 异常 f 
答 的 有 效 性 尚 待 验证 。 此 外 ， 对 于 不 同类 别 ， 这 
模型 需要 估计 的 参数 数量 是 相同 的 。 因 此 如 果 将 
它们 用 于 识别 异常 作答 ,可 能 由 于 异常 作答 的 比 
例 明 显 过 小 ， 造 成 该 类 别 参 数 估计 的 标准 误 偏 大 ， 

影响 其 检验 力 (Molenaar et al., 2018)。Wang 和 
Xu (2015) 的 混合 多 层 模型 以 及 在 此 基础 上 拓展 的 
应 用 于 高 阶 IRT 的 多 层 混 合 模型 、 基 于 混合 多 层 
模型 的 两 步 方 法 和 考虑 了 缺失 数据 的 混合 多 层 模 
型 ， 对 异常 作答 的 作答 反应 和 反应 时 模型 设置 了 
相对 较 少 的 待 估 参 数 (例如 gj 上 ,oz )， 能 够 在 一 
定 程度 上 解决 这 一 问题 。 然 而 该 类 模型 面临 的 主 
要 质疑 仍然 是 混合 模型 普遍 存在 的 强 假设 问题 。 
虽然 与 等 级 分 组 的 反应 时 模型 直接 限定 快速 猜测 


ay Ty 二 


ll 


作答 的 答对 概率 相 比 ， 这 类 模型 的 假设 有 一 定 弱 
化 ,但 是 仍 有 不 尽 合 理 之 处 。 例 如 ,这 类 模型 假设 
异常 作答 行为 的 反应 时 服从 均值 和 标准 差 恒 定 的 
对 数 正 态 分 布 。 然 而 实际 中 异常 作答 可 能 和 被 试 
因素 (例如 ， 学 业 能 力 ， 作 答 速度 等 ) 或 者 题目 因 
素 (例如 题目 位 置 ， 题 型 等 ) 相 关 (Goldhammer et al., 
2016; Lee & Jia, 2014; Molenaar, Bolsinova et al, 
2016; Molenaar et al., 2018; Molenaar, Oberski et al., 
2016)。 因 此 ,对 于 异常 作答 反应 时 分 布 的 假设 可 
能 不 合理 。 又 例如 ， 这 类 模型 假设 异常 作答 的 正 
确 率 为 9， 即 对 于 不 同 被 试 , 在 同样 题目 上 ， 蜡 
作答 行为 的 答对 概率 是 相同 的 。 但 是 Feinberg 和 
Jurich (2018) 发 现 , 不 同 能 力 水 平 被 试 异常 作答 的 
正确 率 不 同 。 因 此 这 一 假设 不 尽 合 理 。 综 上 ， 当 泥 
合 多 层 模 型 的 假设 无 法 满足 时 ， 这 种 方法 可 能 

法 成 功 划分 作答 行为 的 不 同类 型 (Molenaar et al., 
2018; Ranger & Kuhn, 2017)。 除 此 之 外 ,考虑 了 缺 
失 数 据 的 混合 多 层 模 型 非常 复杂 ， 待 估 参 数 偏 多 ， 
存在 模型 拟 合 时 间 长 (例如 ,对 于 1000 人 在 20 道 
题 上 的 作答 ,模型 拟 合 所 需 时 间 在 24 小 时 以 上 ， 
Ulitzsch et al., 2020), 参数 估计 不 易 收敛 等 问题 。 


3 三 类 方法 的 综合 分 析 与 比较 
3.1 三 类 方法 基本 思路 的 分 析 与 比较 

从 功能 来 说 ， 反 应 时 赣 值 法 和 反应 时 残 差 法 
都 是 识别 快速 异常 作答 ,之 后 需要 采用 降低 权重 
的 方式 进行 参数 估计 。 而 混合 模型 法 在 建 模 时 就 
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考虑 了 不 同 作答 特点 ， 能 够 一 次 性 解决 异常 作答 
的 识别 和 模型 参数 估计 的 问题 。 

从 思路 来 说 ,尽管 三 类 方法 都 假设 ,， 如果 存 
在 异常 作答 ,整个 作答 反应 和 反应 时 都 呈现 出 混 
合 两 类 模式 的 特点 。 但 是 ,它们 处 理 两 类 作答 模 
式 的 思路 是 不 同 的 。 反 应 时 赣 值 法 和 反应 时 残 差 
法 首先 关注 所 有 作答 的 反应 时 分 布 。 再 根据 快速 
异常 作答 具有 反应 时 短 的 特点 ， 从 整体 分 布 中 划 
分 阅 值 ,将 阅 值 之 外 的 异常 值 识 别 为 快速 异常 作 
答 。 这 类 似 于 假设 检验 的 思路 。 在 整个 分 布 中 极 
端的 数值 ， 仍 属于 这 个 分 布 的 概率 是 非常 小 的 。 
因此 我 们 有 更 充分 的 理由 相信 这 些 极端 的 数值 是 
属于 另 一 个 分 布 的 (快速 异常 作答 的 反应 时 分 布 )。 
从 这 个 意义 上 说 ,反应 时 残 差 法 也 是 通过 在 反应 
时 残 差 或 期 望 反应 时 分 布 上 设 定 阔 值 来 做 出 判断 
的 。 因 此 , 在 更 广泛 的 层面 上 ,反应 时 残 差 法 也 可 
以 看 作 一 种 “反应 时 间 值 法 ”。 然 而， 当 整 个 数据 中 
已 经 混 有 快速 异常 作答 时 ， 这 些 异 常 的 作答 模式 
必然 会 影响 整个 数据 反应 时 的 分 布 。 例 如 ， 这 种 
情况 下 标准 化 反应 时 残 差 其 实 可 能 已 经 不 符合 标 
准 正 态 分 布 了 。 采 用 标准 化 反应 时 残 差 法 本 身 的 
前 提 假 设 就 不 成 立 , 会 造成 识别 结果 的 偏差 。 而 
混合 模型 法 的 基本 思想 在 于 用 平等 的 视角 对 待 两 
类 作答 模式 。 将 作答 反应 的 正确 率 , 反应 时 分 布 ， 
都 视 作 两 类 作答 模式 的 混合 。 这 种 思路 具有 一 定 


的 灵活 性 。 一 是 在 数据 中 存在 异常 作答 的 情况 下 ， 
两 类 作答 分 别 对 各 自 的 模型 参数 估计 提供 信息 
不 会 出 现 像 传统 模型 那样 ， 随 着 异常 作答 比例 增 
加 ,模型 参数 估计 误差 增 大 的 现象 。 二 是 在 数据 
中 不 存在 异常 作答 的 情况 下 ， 相 当 于 每 个 作答 的 
潜 类 别 都 相同 ， 从 理论 上 说 该 模型 也 能 够 处 理 这 
种 数据 。 
3.2 三 类 方法 局 限 性 的 分 析 与 比较 

总 的 来 说 ,三 类 方法 各 有 优 缺 点 。 反 应 时 间 
值 法 原理 简单 ， 便 于 应 用 和 操作 ， 是 最 早 提 出 的 
一 类 方法 。 但 是 这 类 方法 由 于 缺乏 背后 理论 模型 
的 支持 ， 在 现实 中 无 法 确定 冰 值 的 情况 屡 有 发 生 ， 
因此 其 科学 性 也 受到 越 来 越 多 的 质疑 。 反 应 时 残 
差 法 基于 反应 时 模型 构造 出 期 望 分 布 ,具有 一 定 
的 理论 依据 。 但 是 当 存 在 快速 异常 作答 时 ,传统 
的 反应 时 模型 是 否 拟 合 良好 ， 计 算得 到 期 望 分 布 
是 否 符合 理论 分 布 ,也 是 值得 反复 其 酌 的 问题 。 
混合 模型 法 也 基于 特定 的 理论 模型 ， 同时 考虑 了 
不 同类 型 数据 的 特点 ,在 一 定 程度 上 突破 了 前 两 
种 方法 的 局 限 性 。 并 且 ， 该 方法 可 以 通过 灵活 设 
定 异 常 作答 部 分 参数 的 先 验 分 布 ， 应 用 于 不 同类 
型 异常 作答 的 识别 。 然 而 ， 混 合 模型 的 方法 还 善 
遍 存 在 包含 强 假 设 , 计算 复杂 耗 时 长 ， 有 了 时 参数 
估计 不 收敛 等 缺陷 。 表 1 总 结 了 本 文中 介绍 的 方 
法 的 主要 局 限 性 。 


表 1 本 文中 所 有 方法 的 主要 局 限 性 总 结 


没有 综合 利 没有 偶 有 例 


包含 有 对 高 比 异常 作答 计算 识别 结 只 能 用 于 已 
KEW 例 异常 比例 低 时 复杂 果 不 一 知 异常 作答 于 识别 


方法 具体 方法 用 反应 时 和 基于 外 , 无 | 
类 型 作答 反应 的 理论 法 批量 作答 的 ”作答 ”容易 出 现 耗 时 定 是 异 答对 概率 的 快速 异 
信息 Awn 应 用 强 假设 敏感 ”问题 ”长 常 作答 情境 常 作答 
统一 阔 值 法 x x x 
HS Hae PIER Be (EL x x x 
反应 时 UE a} AG 3S HHS BR (GS x x x x 
BOA 常 模 阔 值 法 x x 
基于 信息 求 阔 值 法 x x x 
条 件 分 布 法 x x 4 x 
反应 时 标准 化 反应 时 残 差 法 x x x 
残 差 法 贝 叶 斯 残 差 法 x x x 
等 级 分 组 的 反应 时 模型 x x x 
半 参 数 化 的 混合 模型 x x x x x 
混合 ”基于 反应 时 的 混合 作答 、 、 、 
模型 法 反应 模型 
基于 反应 时 和 作答 反应 : 
的 混合 多 层 模 型 


注 : 表 中 的 x 表 示 方 法 有 此 项 局 限 性 。 
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总 的 来 说 , 混合 模型 法 的 局 限 性 主要 来 自 于 
三 个 方面 。 一 是 包含 一 些 关 于 异常 作答 的 作答 正 
确 率 和 反应 时 分 布 的 强 假 设 , 如 果 这 些 假设 遭 到 
违背 ， 可 能 无 法 得 到 准确 的 识别 结果 。 二 是 异常 
作答 比例 较 低 时 容易 出 现 问题 。 例 如 ， 当 异常 作 
答 的 比例 较 小 或 者 样本 量 较 小 时 ， 有 时 很 难得 到 
收敛 的 结果 (Ranger et al., 2019)。 当 数据 中 不 存在 
异常 作答 时 ， 甚 至 会 出 现 模型 识别 的 问题 (Dolan 
et al., 2002)。 三 是 计算 复杂 耗 时 长 。 例 如 ， 即 便 使 
用 贝 叶 斯 框架 下 的 MCMC 算法 估计 参数 的 后 验 
分 布 ,在 先 验 分 布设 置 合 理 的 情况 下 ， 也 需要 较 
长 时 间 。 笔者 借助 普通 计算 机 (处 理 器 为 17-4500U 
内 存 为 8GB)， 对 样本 量 为 2000, 题目 数 为 30， 异 
常 作答 比例 约 为 25% 的 模拟 数据 ， 基 于 Wang 和 
Xu (2015) 的 混合 模型 ， 应 用 贝 叶 斯 框架 下 基于 
Gibbs 抽样 的 MCMC 算法 估计 参数 后 验 分 布 ， 迭 
代 收 敛 所 需 时 间 达 到 9 小 时 以 上 。 
由 于 不 同类 型 的 方法 具有 不 同 特点 ， 因 此 在 
实际 的 心理 与 教育 测验 数据 分 析 中 ,应 当 结 合 具 


= 


分 类 。 随 着 对 数据 分 析 精 度 要 求 的 提高 ， 以 及 对 
数据 中 有 效 信息 充分 利用 的 需求 不 断 增加 ,实现 
作答 层面 的 分 类 成 为 了 混合 模型 发 展 的 重要 方向 
之 一 。 关 于 结合 了 反应 时 与 作答 反应 的 多 层 模型 
的 深入 研究 和 推广 应 用 ， 又 为 综合 利用 多 元 信息 
识别 和 分 析 异 常 作答 提供 了 重要 的 模型 基础 。 而 
贝 叶 斯 框架 下 的 MCMC 算法 在 心理 与 教育 测量 
中 的 广泛 应 用 ， 又 使 得 更 为 复杂 的 混合 模型 的 参 
数 估计 得 以 顺利 实现 。 可 以 说 ， 混 合 模型 法 的 出 
M, 是 模型 和 估计 方法 发 展 优化 的 共同 结果 。 虽 
然 该 方法 在 异常 作答 的 处 理 中 具有 种 种 优势 ,但 
它 毕 竞 是 一 类 较 新 的 方法 ， 本身 也 具有 一 定 的 局 
限 性 。 因 此 无 论 是 方法 改进 、 方 法 适用 性 的 理论 
研究 ,还 是 方法 在 实际 中 应 用 的 实践 研究 ， 都 有 
着 较为 广阔 的 发 展 空间 。 以 下 对 混合 模型 方法 未 
来 可 能 的 研究 方向 提供 一 些 建议 , 供 感 兴趣 的 研 
究 者 参考 。 
4.1 检验 违背 前 提 假 设 时 模型 的 稳健 性 
众所周知 ， 混 合 模型 最 为 研究 者 诉 病 的 方面 


是 它 含有 一 些 强 假设 。 正 是 由 于 强 假设 的 存在 


体 测 验 的 特点 以 及 要 处 理 的 异常 作答 类 型 ， 选 用 
合适 的 方法 。 例 如 ,在 一 些 高 利害 的 测验 中 ,学 生 
往往 具有 较 高 的 动机 ， 考 试 安全 性 也 较 高 ， 异常 
作答 的 现象 很 少 , 并 且 主 要 表现 为 快速 猜测 等 快 
速 异 常 作 答 。 这 时 低 比 例 的 快速 异常 作答 对 传统 
模型 参数 估计 结果 的 影响 很 小 , 可 以 选用 反应 时 
残 差 法 , 或 反应 时 间 值 法 识别 快速 异常 作答 并 在 
估计 时 降低 权重 。 而 在 一 些 低 利害 的 测验 中 ， 异 
常 作答 发 生 的 频率 较 高 ,并且 主 要 表现 为 不 努力 
作答 。 这 时 反应 时 残 差 法 会 出 现 较 大 偏差 . 可 以 
选用 对 高 比例 异常 作答 不 敏感 的 混合 模型 法 , 一 
次 性 解决 识别 和 参数 估计 的 问题 。 


4 问题 与 展望 


目前 ， 几 乎 所 有 的 心理 与 教育 测量 模型 都 建 
立 在 学 生 正常 作答 的 前 提 假 设 下 (Wise, 2015), 并 
没有 考虑 异常 作答 可 能 对 个 人 分 数 等 造成 影响 。 
有 很 多 研究 者 提出 ,如果 能 够 建立 一 套 程序 证 明 
个 人 分 数 的 效 度 (ISV，individual score validity), 
就 有 责任 在 分 析 数 据 之 前 使 用 这 套 程序 (Hauser 
& Kingsbury, 2009; Hauser et al., 2008)。 处 理 异常 
作答 显然 就 是 这 套 程序 的 一 部 分 。 

混合 模型 虽然 在 心理 与 教育 测量 中 早 有 应 用 ， 
但 是 在 很 长 一 段 时 期 内 ， 都 仅 停留 在 个 人 层面 的 


才 使 得 对 分 类 潜 变 量 、 不 同类 别 模型 参数 的 估计 
成 为 可 能 。 而 另 一 方面 , 这些 强 假设 也 在 一 定 程 
度 上 增加 了 模型 在 假设 不 满足 时 估计 结果 不 理想 
的 风险 。Wang, Xu, Shang 和 Kuncel (2018) 曾 在 数 
据 基 于 混合 模型 假设 产生 和 基于 残 差 模型 产生 的 
条 件 下 ， 对 混合 多 层 模 型 和 贝 叶 斯 残 差 法 进行 比 
较 。 研 究 结 果 在 一 定 程 度 上 证 明了 不 管 基于 何 种 
模型 产生 数据 ,混合 多 层 模型 相 比 于 贝 叶 斯 残 差 
法 在 异常 作答 的 识别 和 参数 估计 结果 返 真性 上 都 
表现 出 较 大 的 优势 。 但 是 , 混合 多 层 模型 在 拟 合 
基于 残 差 法 产生 的 数据 时 的 表现 ， 要 差 于 基于 混 
合 多 层 模 型 产生 的 数据 。 然 而 , 在 他 们 的 模拟 研 
究 中 ， 基 于 残 差 法 产生 异常 作答 的 反应 时 数据 仅 
违背 了 混合 多 层 模型 中 关于 反应 时 模型 的 假设 ， 
异常 作答 的 答对 概率 仍 符合 其 假设 。 除 此 之 外 ， 
混合 多 层 模型 还 包含 三 个 局 部 独立 性 假设 ( 见 本 
文 2.2.1), 在 已 有 的 混合 多 层 模型 研究 中 ,这 些 假 
设 都 是 满足 的 。 今 后 应 针对 混合 模型 各 种 前 提 假 
设 遭 到 违背 的 情况 开展 广泛 的 模拟 研究 ， 探 讨 该 
方法 的 稳健 性 。 
4.2 固定 部 分 题目 参数 以 提高 方法 估计 速度 
即使 应 用 了 贝 叶 斯 框架 下 的 MCMC 算 法, 一 
些 较为 复杂 的 混合 模型 仍 面临 着 计算 复杂 耗 时 长 
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的 问题 。 这 是 因为 在 迭代 过 程 中 ， 所 有 参数 都 需 
要 从 后 验 分 布 中 抽取 。 可 以 设想 ,如 果 已 知 部 分 
参数 (如 题目 参数 ), 将 其 国定 对 其 余 参数 进行 条 
件 估计 ,应 当 能 够 有 效 提高 估计 速度 。 为 了 得 到 
准确 的 题目 参数 估计 结果 ,可 以 应 用 Liu 等 人 
(2020) 提 出 的 对 被 试 个 体 分 类 的 混合 模型 方法 
先 筛选 出 正常 作答 的 被 试 群体 ， 基 于 这 一 群体 拟 
van der Linden (2007) 的 多 层 模 型， 得 到 较 准 确 
的 正常 作答 部 分 的 题目 参数 估计 结果 。 再 将 这 些 
题目 参数 估计 结果 固定 ， 代 和 人 混合 多 层 模型 的 参 
数 估计 过 程 ， 可 以 明显 缩短 估计 时 间 。 经 笔者 实 
验证 明 , 对 于 样本 量 为 2000, 题目 数 为 30, 快速 
异常 作答 比例 约 为 25% 的 模拟 数据 ， 基 于 混合 多 
层 模型 (正常 作答 使 用 两 参数 logistic 模型 拟 合 )， 
采用 贝 叶 斯 框架 下 基于 Gibbs 抽样 的 MCMC 算 
法 估计 参数 后 验 分 布 ， 应 用 这 种 固定 部 分 题目 参 
数 估计 的 方式 ， 能够 将 估计 时 间 缩 短 到 原来 的 一 
半 以 下 。 
4.3 结合 其 他 反应 时 模型 以 提高 方法 适用 性 

目前 用 于 处 理 异常 作答 的 混合 模型 在 反应 时 
部 分 多 采用 的 是 van der Linden (2006, 2007) 的 反 
应 时 模型 。 尽 管 该 模型 可 以 算 作 应 用 最 广泛 的 反 
应 时 模型 , 但 是 , 也 有 很 多 研究 者 提出 了 一 些 其 
他 的 模型 ， 并 认为 这 些 模型 在 某 些 情况 下 具有 更 
好 的 适用 性 。 例 如 , 在 实验 心理 学 中 较 常 用 的 三 
参数 反应 时 模型 (e.g., Cousineau, 2009), 反应 时 的 
半 参 数 化 模型 (Wang, Chang et al., 2013; Wang, Fan 
et al., 2013), 在 van der Linden (2007) 模 型 的 基础 
上 考虑 了 残 差 相关 的 模型 (Bolsinova & Tijmstra, 
2019) 等 。 此外, Wang 和 Xu (2015) 也 指出 , 目前 的 
多 层 模 型 隐 含 了 测验 中 只 含有 单一 题 型 的 假设 。 
如 果 测 验 中 含有 多 种 题 型 ， 时 间 密 度 参 数 可 能 
赖 于 具体 的 题 型 ,这 可 能 需要 在 反应 时 模型 部 分 
允许 不 同 题 型 的 时 间 密 度 参 数 有 不 同 的 分 布 形 
态 。 因 此 ， 如 何 基于 其 他 的 反应 时 模型 构建 相应 
的 混合 模型 ， 也 是 未 来 研究 方向 之 一 。 
44 考虑 实际 复杂 情境 以 提高 方法 针对 性 

目前 的 大 多 数 研究 都 考察 了 仅 存 在 一 种 类 型 
异常 作答 的 情境 下 , 混合 模型 法 的 有 效 性 。 然 而 
在 实际 的 心理 与 教育 测验 中 ,往往 不 可 能 仅 存 在 
一 种 类 型 的 异常 作答 。 被 试 的 复杂 性 常会 带 来 数 
据 情 况 的 复杂 性 ， 现 实 中 测验 所 得 到 数据 往往 包 
含 更 复杂 的 问题 ,也 对 识别 异常 值 的 统计 方法 提 


出 了 新 的 挑战 。 虽 然 已 有 一 些 研 究 者 对 这 种 复杂 
情境 的 处 理 开展 了 一 些 尝 试 。 例 如 针对 同时 含有 
缺失 数据 和 不 努力 作答 的 复杂 情境 ，Ulitzsc 等 人 
(2019) 提 出 了 考虑 了 缺失 数据 的 混合 多 层 模 型 ,未 
来 研究 也 可 以 拓展 到 数据 同时 包含 忽略 题目 ， 加 
速 作答 ,快速 猜测 作答 ,对 题目 有 预 了 解 的 作答 
等 情况 的 复杂 情境 ,探索 如 何 建立 更 具 针 对 性 的 
混合 模型 ， 并 考察 如 何 解决 这 类 模型 的 识别 和 参 
数 估 计 ( 包 括 收敛 等 ) 等 问题 。 
4.5 ”增加 选择 流程 以 提高 方法 使 用 效率 

从 已 有 研究 结果 来 看 ,混合 模型 法 有 一 定 的 
适用 条 件 。 当 数据 中 异常 作答 的 比例 较 高 时 , 使 
用 该 方法 能 够 得 到 较 准 确 的 识别 结果 和 参数 估计 
结果 , 方法 使 用 效率 高 。 而 当 数 据 中 异常 作答 的 
比例 较 低 时 ， 不 仅 会 影响 异常 作答 部 分 模型 参数 
估计 结果 的 准确 性 ， 甚 至 还 可 能 得 到 不 收敛 的 结 
果 (Ranger et al., 2019)。 此 时 不 仅 方法 使 用 效率 低 ， 
还 可 能 根本 不 能 应 用 ,可 以 改 为 选用 其 他 对 低 比 
例 异 常 作答 不 敏感 的 方法 (如 标准 化 反应 时 残 差 
法 )。 然 而 在 实际 的 数据 清理 中 ,我们 只 能 从 测验 
是 否 为 低 利 害 测验 , 测验 的 保密 程度 ,考生 的 基 
本 情况 ,以 及 监考 反馈 等 方面 , 大 致 推测 异常 作 
答 的 严重 程度 ， 选 择 合适 的 方法 。 今 后 的 研究 可 
以 尝试 构建 测量 整个 数据 中 异常 作答 严重 程度 的 
指标 ， 建 立 指标 与 使 用 混合 模型 法 得 到 的 参数 佑 
计 结 果 准 确 性 提高 程度 之 间 的 联系 。 从 而 指导 实 
践 研 究 者 根据 指标 反映 出 的 数据 污染 情况 选择 合 
适 的 方法 ， 提 高 方法 的 使 用 效率 。 
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Mixture Model Method: A new method to handle aberrant responses 
in psychological and educational testing 
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Abstract: The mixture model method (MMM) is a new method proposed to handle data contaminated by 
aberrant responses in psychological and educational measurement. Compared to the traditional response 
time threshold methods and the response time residual methods, MMM shows the following advantages: (1) 
MMM detects aberrant responses and obtaining parameter estimates simultaneously; (2) it precisely recovers 
the severity of aberrant responding. Through building different item response models and response time 
models for different latent groups, MMM helps to identify aberrant responses from normal responses. Future 
researches could investigate the performance of MMM when its assumptions are violated or using data with 
other types of aberrant response patterns. The computation efficiency of MMM is also likely to be improved 
by fixing part of the item parameter estimates or by using an optimal way of choosing suitable methods. 
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